"""
工具: 数据预处理的方法
    步骤:
        01- 加载数据
        02- 转换时间格式
        03- 样本按时间顺序排序
        04- 去重
"""
# 导入加载数据的模块
import pandas as pd


def data_preprocessing(path):
    """
    01- 加载数据
    02- 转换时间格式
    03- 样本按时间顺序排序
    04- 去重
    :param path: data的相对路径
    :return: 处理后的数据集
    """
    # 01- 加载数据
    data = pd.read_csv(path)
    # 有time和power_load两列, 时间是每个小时整点的数据, 负荷是功率(MW, GW)
    print("查看数据集的信息: ", data.info())
    print("查看数据集的前5行: ", data.head())

    # 02- 转换时间格式
    # data["time"] = pd.to_datetime(data.time)
    # print("时间列转换后的格式: ", data.time.head())
    #
    # # 03- 样本按时间顺序排序
    # data.sort_values(by="time", inplace=True)
    #
    # # 04- 去重
    # data.drop_duplicates(inplace=True)

    return data


if __name__ == '__main__':
    data_preprocessing("../data/test.csv")